Ensemble des demandeurs de prime :

Test de normalité de Shapiro-Wilk :

Nous allons tester la normalité des distributions, afin d’identifier un éventuel effet “commune”.

Si les comportements des bénéficiaires sont les mêmes dans chaque commune, alors les distributions devraient être normales.

H0 : “La distribution suit une loi normale”.

Etant donné que je fais 31 tests, j’utilise la correction de Benjamin-Hochberg :

Seules 2 des 31 variables sont normalement distribuées.

ACP :

Je ne garde pas les communes ayant moins de 10 dossiers

Variables utilisées : “Type.Ancien.appareil”, “Usage.ancien.matériel”, “Nouveau.matériel”,“Type.combustible.nouveau.materiel”, “Usage.nouveau.matériel”, “majoration”, “cout_total_TTC, et”Motivation changement appareil”

J’enlève les variables représentant les modalités de type “autre”, “pas de réponse,”NA”, et une des modalités des variables devenues binaires (combustible, majoration)

Valeurs propres :

##        eigenvalue variance.percent cumulative.variance.percent
## Dim.1   7.2204644        45.127902                    45.12790
## Dim.2   1.7488477        10.930298                    56.05820
## Dim.3   1.5496476         9.685298                    65.74350
## Dim.4   1.0782101         6.738813                    72.48231
## Dim.5   0.9021525         5.638453                    78.12076
## Dim.6   0.7131995         4.457497                    82.57826
## Dim.7   0.7086008         4.428755                    87.00702
## Dim.8   0.5117297         3.198311                    90.20533
## Dim.9   0.4669744         2.918590                    93.12392
## Dim.10  0.3404879         2.128049                    95.25197

Les 6 premières dimensions expliquent plus de 80% de la variance, on gardera quand même les 10 premières pour les clusterings.

Il semble y avoir une légère séparation par territoire, sur les deux premières dimensions.

Contribution et représentation des variables :

Pourcentage de variance expliquée par les différentes dimensions :

1ère dimension = très importante

Les variables de raisons de changement d’appareil, et le cout ttc des travaux ne semblent pas très importants. Les autres semblent toutes assez bien représentées par les deux premières dimensions. Il est difficile d’observer des clusters de variables par dimensions.

Type de communes :

Les deux premières dimensions semblent bien séparer les communes urbaines des rurales

Clustering :

Clustering ascendant hiérarchique :

Le dendogramme semble suggérer de créer 2 clusters, voir 3.

K-means :

La méthode k-means semble bien séparer les deux groupes, en particulier selon la première dimension.

Le groupe 1 semble être marqué par des taux forts de : anciens poêles, primes majorées, anciens et nouveaux usages principaux.

Le groupe 2 semble être marqué par des taux forts de : anciens foyers ouverts, anciens usages agrément, et de nouveaux et anciens usages d’appoint

Carte des clusters :

Carte du type de commune

Lien entre les cluters et les types de communes

##    
##     rural urbain
##   1    37     22
##   2    10     42

Deux groupes : un plus urbain, l’autre plus rurale mais pas mal de confusion rural urbain 1 37 22 2 10 42

Trois groupes : un urbain, un rural, un mixte

rural urbain

1 4 31 2 22 33 3 21 0

##         
##             1    2
##   rural  0.79 0.21
##   urbain 0.34 0.66
##    
##     rural autonome très peu dense rural autonome peu dense
##   1                             1                        5
##   2                             0                        0
##    
##     rural sous faible influence d'un pôle rural sous forte influence d'un pôle
##   1                                    14                                   17
##   2                                     3                                    7
##    
##     urbain densité intermédiaire urbain dense
##   1                           21            1
##   2                           27           15

Groupe 1 = Rurales

Groupe 2 = rural sous faible influence d’un pôle, rural sous forte influence d’un pôle, urbain (principalement intermédiaire) Communes intermédiaires ?

Groupe 3 = urbain + rurale sous forte influence d’un pôle

##                                        
##                                            1    2
##   rural autonome très peu dense         1.00 0.00
##   rural autonome peu dense              1.00 0.00
##   rural sous faible influence d'un pôle 0.82 0.18
##   rural sous forte influence d'un pôle  0.71 0.29
##   urbain densité intermédiaire          0.44 0.56
##   urbain dense                          0.06 0.94

Calcul des odds ratio pour connaitre l’effet des modalités des types de communes sur les groupes :

Un log(odds ratio) :

< 0 signifie que l’événement “être dans le groupe 2” est moins fréquent dans ce groupe par rapport à l’ensemble des autres, signifatif si la borne sup l’est aussi.

= 0 signifie que l’événement est aussi fréquent dans les deux groupes.

‘>’ 0 signifie que l’événement “être dans le groupe 2” est plus fréquent dans ce groupe par rapport à l’ensemble des autres, signifatif si la borne inf l’est aussi.

On ne peut pas calculer l’OR pour les communes peu dense et très peu dense car elles sont trop peu nombreuses.

Récupération des clusters par individus :

Stable au cours du temps même si les taux sont un peu extrêmes en 2015 et en 2024 : pas l’année complète

Différences inter-groupes :

Variables de l’ACP :

Le tableau présente les différences de moyennes entre les deux groupes, pour les variables centrées réduites (cr) et brutes, ainsi que la proportion de variance de la variable expliquée par la séparation en groupes (X..epl).

##                  diff_inter_groupes_cr X..epl. diff_brute
## old_foyer_ouvert                 -1.20   36.47      -0.15
## old_insert_fermé                  0.15    0.51       0.02
## old_Poêle                         1.03   26.67       0.13
## old_appoint                      -1.24   38.91      -0.15
## old_principal                     1.47   54.51       0.24
## old_agrément                     -1.20   36.14      -0.08
## new_Poêle                         1.30   42.27       0.13
## Bûche                            -1.22   37.80      -0.16
## new_appoint                      -1.41   50.43      -0.21
## new_principal                     1.43   51.78       0.21
## new_agrément                     -0.87   18.93      -0.01
## majorée                           1.02   26.21       0.12
## cout_total_TTC                    0.77   14.92     108.49
## montant_aide                     -0.62    9.41    -218.80
## confort                           0.09    0.18       0.00
## Qualité_air                       0.19    0.91       0.02
## économiser                        0.81   16.57       0.07

Tests comparaisons d’échantillons :

Tests non paramétrique d’égalité des distributions de Wilcoxon : H0 : “égalité des lois”

Tests paramétriques d’égalité d’espérances, via ANOVA : H0 : “égalité des espérances”

Représentation des différences inter-groupe, en fonction des résultats des tests :

##           variables Diff_grp pval wilcoxon   pval anova index
## 1  old_foyer_ouvert    -1.20  2.912306e-11 5.521091e-12     1
## 2  old_insert_fermé     0.15  1.645223e-01 4.848721e-01     2
## 3         old_Poêle     1.03  3.384376e-09 1.234489e-08     3
## 4       old_appoint    -1.24  2.253133e-11 8.838516e-13     4
## 5     old_principal     1.47  3.901128e-15 3.946495e-19     5
## 6      old_agrément    -1.20  2.253133e-11 6.414021e-12     6
## 7         new_Poêle     1.30  1.018918e-11 4.876339e-14     7
## 8             Bûche    -1.22  2.008165e-11 1.994845e-12     8
## 9       new_appoint    -1.41  5.181826e-14 1.481152e-17     9
## 10    new_principal     1.43  8.008533e-15 4.835339e-18    10
## 11     new_agrément    -0.87  2.736700e-06 2.821087e-06    11
## 12          majorée     1.02  1.675740e-09 1.579904e-08    12
## 13   cout_total_TTC     0.77  1.223404e-06 3.682373e-05    13
## 14     montant_aide    -0.62  7.509227e-02 1.281470e-03    14
## 15          confort     0.09  3.914748e-01 6.564353e-01    15
## 16      Qualité_air     0.19  1.761098e-01 3.609179e-01    16
## 17       économiser     0.81  1.378007e-05 1.311369e-05    17

Groupe 1 : (+ rural)

##  [1] "old_insert_fermé" "old_Poêle"        "old_principal"    "new_Poêle"       
##  [5] "new_principal"    "majorée"          "cout_total_TTC"   "confort"         
##  [9] "Qualité_air"      "économiser"

Majorés, chauffage principal, raisons changement : plus de modalités / croisement, taux de poêle nouveau ++, ancien : plus d’insert et de poêle que le groupe 2

Groupe 2 : (+ urbain)

## [1] "old_foyer_ouvert" "old_appoint"      "old_agrément"     "Bûche"           
## [5] "new_appoint"      "new_agrément"     "montant_aide"

Non majorés, ont un usage moins important de leur appareil (moins dépendants), taux de buche + important

Autres représentation graphique, les variables où le texte est en gris sont celles où il y a égalité des distributions. Les points bleus sont ceux où la moyenne du groupe 2 est plus forte que celle du groupe 1, et inversement pour les rouges :

Variables supplémentaires :

##                                 diff_inter_groupes_cr X..epl. diff_brute
## n                                               -0.86   18.51     -44.95
## superficie_foret                                 0.26    1.72     205.48
## taux_forets                                      0.13    0.39       2.67
## évolution_nb_logements                          -0.57    8.16      -2.59
## Densité_pop                                     -0.57    8.18    -605.12
## Part_résidences_principales_loc                 -0.47    5.42      -5.65
## part_maisons                                     0.68   11.44      16.50
## part_résidences_principales                     -0.65   10.63      -5.87
## objectifs_2022                                  -0.75   14.12     -62.80
## nb_ménages_fiscaux                              -0.45    5.03   -3163.50
## nb_personnes_menages_fiscaux                    -0.49    5.82   -6582.37
## mediane_niveau_vie                              -0.73   13.30   -2510.76
## taux_dossiers_habitant                           0.21    1.11       0.01
## taux_changement                                 -0.34    2.75      -0.01
## objectifs_2022_par_maison                        0.39    3.91       0.01
## taux_feuillus                                   -0.10    0.25      -0.02
## taux_feuillus_mixte                             -0.06    0.09      -0.01

Tests comparaisons d’échantillons :

Tests non paramétrique d’égalité des distributions de Wilcoxon : H0 : “égalité des lois”

Tests paramétriques d’égalité d’espérances, via ANOVA : H0 : “égalité des espérances”

##                          variables Diff_grp pval wilcoxon   pval anova index
## 1                                n    -0.86  3.421148e-06 4.155634e-05     1
## 2                 superficie_foret     0.26  5.350035e-01 2.217460e-01     2
## 3                      taux_forets     0.13  5.955377e-01 5.808069e-01     3
## 4           évolution_nb_logements    -0.57  2.903636e-03 5.745982e-03     4
## 5                      Densité_pop    -0.57  5.206464e-05 5.745982e-03     5
## 6  Part_résidences_principales_loc    -0.47  3.723533e-02 2.631539e-02     6
## 7                     part_maisons     0.68  4.086125e-04 1.204528e-03     7
## 8      part_résidences_principales    -0.65  3.187365e-04 1.625350e-03     8
## 9                   objectifs_2022    -0.75  3.640503e-04 4.091590e-04     9
## 10              nb_ménages_fiscaux    -0.45  5.206464e-05 3.063655e-02    10
## 11    nb_personnes_menages_fiscaux    -0.49  5.206464e-05 2.290039e-02    11
## 12              mediane_niveau_vie    -0.73  3.187365e-04 4.716044e-04    12
## 13          taux_dossiers_habitant     0.21  5.399232e-01 3.286678e-01    13
## 14                 taux_changement    -0.34  3.101998e-03 1.157259e-01    14
## 15       objectifs_2022_par_maison     0.39  1.636951e-02 5.809527e-02    15
## 16                   taux_feuillus    -0.10  5.350035e-01 6.421966e-01    16
## 17             taux_feuillus_mixte    -0.06  6.943308e-01 7.500522e-01    17

Groupe 1 : (+ rural)

## [1] "superficie_foret"          "taux_forets"              
## [3] "part_maisons"              "taux_dossiers_habitant"   
## [5] "objectifs_2022_par_maison"

Plus de primes, plus de fôrets de tout type, plus grande part de maison dans les résidences principales

Groupe 2 : (+ urbain)

##  [1] "n"                               "évolution_nb_logements"         
##  [3] "Densité_pop"                     "Part_résidences_principales_loc"
##  [5] "part_résidences_principales"     "objectifs_2022"                 
##  [7] "nb_ménages_fiscaux"              "nb_personnes_menages_fiscaux"   
##  [9] "mediane_niveau_vie"              "taux_changement"                
## [11] "taux_feuillus"                   "taux_feuillus_mixte"

Plus de pop, meilleur médiane de niveau de vie, taux plus important de superficie de feuillus

Liens entre les variables de l’acp

Le taux de nouveaux appareils de type poêle est lié et anti corrélé aux taux de : bûches, nouveaux et anciens appoints, nouveaux et anciens aggréments, (montant de l’aide)

Lié et corrélé aux taux de : majoration, nouveaux et anciens principaux Buche : appoint +, principal -

Majorée : anti corrélé au montant de l’aide : effet Pays Voironnais ? Beaucoup de maj, prime + faible -> lié au cout total ttc

Taux de bûches lié et anti corrélé à : ancien et nouveau poêle, ancien principal, majoration

Lié et corrélé à : ancien foyer ouvert, ancien et nouveau appoint, ancien aggrément

Choix du nombre de clusters :

-> Coude au niveau de 3 clusters

Critère de Calinski et Harabasz : prends en compte la taille de l’échantillon, le nombre de cluster, et les sommes des carres des distances intra et inter clusters : critère à maximiser

Optimal = 2 groupes.

Régression logistique :

## [1] 0.9152542

On prédit très bien les groupes à partir des anciens usages

Conclusion ensemble des demandeurs :

Suite à l’acp, nous avons chercher à créer des groupes de communes, le choix de séparer en deux groupes semble le plus optimal, car il est plus simple à interpréter. De plus, la séparation entre les deux groupes se fait principalement sur la première dimension de l’ACP, or c’est sur cette dimension que la plupart des variables sont le mieux représentées.

Le premier groupe contient principalement des communes rurales et une vingtaine de communes urbaines de densité intermédiaire. Le deuxième groupe contient principalement des communes urbaines, et quelques communes rurales sous influence d’un pôle.

Les communes du premier groupe ont un taux plus fort de chauffage principal dans les anciens et nouveaux matériels (23 et 22%), ont 13 % de plus de pôele dans les noveaux matériels, ont en moyenne un taux de prime majorées plus fort (12%), et remplissent plus de réponses dans les raisons de changement d’appareil, par rapport au deuxième groupe.

Le deuxième groupe a un usage moins important des appareils (appoint, plaisir), avant comme après prime, et a un taux plus fort d’utilisation de la bûche dans les nouveaux appareils (15%), et des taux plus forts de chauffage d’appoint et d’aggréments, ainsi que de foyers ouverts, par rapport au premier groupe.

Il est possible que les usages des appareils influencent le type d’appareil et de combustible (Chauffage principal -> poêle à granulés). Or les usages peuvent être liés à la siutation économique de l’usager (ex : majoration de la prime).

Pour les variables supplémentaires, dans le premier groupe, il semble y avoir plus de demandes de primes par habitant, ainsi qu’une plus grande part de maison dans les résidences principales. Dans le deuxième groupe, il semble y avoir plus de population, une plus forte médiane de niveau de vie. Ce qui conforte la séparation rural / urbain des deux groupes. Les différences entre les taux de forêts sont très faibles (entre à et 2 %), et sont plus fort tantôt pour le groupe 1, tantôt pour le 2, dépendant de la variable.

Il semble que les différences de comportement entre les deux groupes soient plutôt dues aux caractéristiques socio-économique des communes.